Компьютерная технология создания
и издания Славянского ассоциативного словаря

Для обработки данных Славянского ассоциативного эксперимента активно использовались средства вычислительной техники. Была разработана информационная технология сопровождения всего цикла исследовательских работ научного коллектива, в основу которой легли технические решения, использованные в Русском ассоциативном эксперименте [Черкасова 1996, 1998]. В качестве инструментария применялись универсальные программные системы (текстовые редакторы, системы ­управления ­базами данных, электронные таблицы) и специальные программные комплексы, ­созданные для поддержки отдельных этапов эксперимента.

Информационная технология Славянского ассоциативного эксперимента организационно делится на два этапа, которые по основному конструктивному их результату названы: “Разработка ассоциативного тезауруса” — 1-й этап; “Исследование ассоциативной вербальной сети” — 2-й этап [ Черкасова 2004: 140].

На первом этапе решаются следующие задачи: генерация и печать анкет, создание базы данных исследования, ввод и формальный контроль данных анкетного опроса, статистический анализ базы данных.

Генерация и печать анкет. Чтобы исключить влияние конкретных сочетаний ­(последовательностей) слов-стимулов на ответы испытуемых, использовались фор­мальные методы генерации анкет, основанные на формировании множества разных случайных последовательностей номеров всех стимулов.

Анкеты ассоциативного опроса были подготовлены и напечатаны с помощью­ ­специальных программ (такая технология использовалась для русского и болгарского языков) и с использованием текстового редактора Word (для украинского и белорусского эксперимента).

Создание базы данных. Для эффективного хранения информации в виде, удобном для ее последующей обработки, и обеспечения минимальных затрат памяти на хранение данных и времени выполнения операций над ними использовалась система управления базами данных (СУБД) Paradox v.5.0 (rus). База данных САС состоит из 17 таблиц, по четыре для каждого языка: исходная таблица анкет, таблица параметров респондентов (пол, специальность, возраст, место и время проведения анкетирования), таблицы прямого и обратного словарей, и сводной таблицы слов-стимулов.

Ввод и контроль данных. Для ввода сведений, содержащихся в рукописных бумажных анкетах, полученных после проведения ассоциативного эксперимента, применялись две технологии:

1) технология непосредственного ввода содержания анкет в базу данных исследования, использующая инструменты, предоставленные выбранной СУБД;

2) технология ввода данных в текстовые файлы заданного формата с помощью текстового редактора Word, и импортирование их в базу данных.

Все возможные ошибки следует разделить на два типа: неформальные (а) и формально-логические (б).

К ошибкам типа (а) относятся опечатки при вводе слов-реакций, так как анкеты представляют собой рукописные записи респондентов, сделанные порой неразборчивым почерком. Их можно обнаружить только путем вычитки текстового файла ­введенных анкет и сравнения с бумажной анкетой либо по его распечатке, либо непосредственно с экрана дисплея. Такие ошибки исправлялись только путем клавиатурного перенабора.

Ошибки типа (б) могут быть обнаружены и в некоторых случаях автоматически исправлены путем формально-логического контроля вводимых данных. Например, специальной программой проверялось количество введенных реакций в каждом столбце анкеты (всего в анкетах было по четыре столбца) и, если полученное число было меньше заданной величины, то проводилась вычитка этой анкеты. Кроме этого проверялись значения поля возраст, котороедолжно быть в пределах от 17 до 25, номер специальности от 1 до 8,  а поле пол должно принимать значение или “мужской”, или “женский”.

Статистический анализ базы данных осуществлялся с использованием запросной системы СУБД, и на его основе получены различные количественные показатели и списки, в частности, фрагменты частотных списков реакций и пар “стимул­–реакция”, которые представлены в настоящем издании.

На втором этапе разрабатывается инструментарий для проведения ­исследований ассоциативного словаря-тезауруса. Первым и непременным шагом ­является создание “Ассоциативного словаря”, т.е. формирование и подготовка к печати двух его проекций: прямой — от стимула к реакции, и обратной — от реакции к стимулу. Одновременно с созданием печатной версии Словаря создается информационная среда и система ассоциативного эксперимента [Черкасова 2000].

Составление статей ассоциативного словаря. В базе данных эксперимента после ввода имеется множество ассоциативных пар (стимул-реакция), распределенных по анкетам. Статья ассоциативного словаря представляет собой запись слова-стимула и соответствующего ему множества слов-реакций — ассоциативную дефиницию, при этом для каждой из реакций указана абсолютная частота ее встречаемости в паре с данным стимулом. Для создания статей ассоциативного словаря нужно отсортировать множество ассоциативных пар по стимулу и для каждого стимула подсчитать частоту встречаемости соответствующих ему реакций.

Задача сортировки по славянским алфавитам представляет определенную сложность, из-за ограничений современных СУБД и в частности Paradox v.5.0, в использовании языковых драйверов, поддерживающих языки со стандартным набором символов. Сортировка таблиц базы данных эксперимента осуществлялась с помощью программного комплекса Andrew Tools 2000 [Филиппович 2001], позволяющего создать свои вспомогательные индексные поля в таблицах и использовать их при сортировке.

Подготовка ассоциативного словаря к печати. Средой разработки Славянского ­ассоциативного словаря является СУБД. Однако она не предназначена для фор­мирования оригинал-макетов печатного издания, удовлетворяющих требованиям ­полиграфии, а использование функциональных возможностей СУБД по созданию отчетных печатных форм требует значительной последующей ручной работы из-за того, что автоматически списки слов представляются в виде столбцов, а для удобства чтения и экономии места на страницах печатного издания словаря лучше разместить слова по строкам, используя традиционные разделители (запятые, точки с запятой и др.). ­Общая трудоемкость форматирования словарных статей и страниц в СУБД велика, ведь количество представленных слов огромно. Подготовка оригинал-макета САС представляет собой специальную технологию, комбинирующую возможности СУБД Paradox и специальных программ на языках Basic и Delphi, с последующей окончательной версткой в среде Adobe PageMaker 6.5.

Информационная система Славянского ассоциативного эксперимента позволяет получать словарные статьи прямого и обратного ассоциативных словарей по всему корпусу, и по заданным значениям отдельных параметров респондентов, например, указав пол, можно получить гендерный ассоциативный словарь. Информационная система создается в среде Borland Delphi 6 и реализует следующий минимальный состав функций [Филиппович Анна 2003]: вывод таблиц прямого и обратного словарей по четырем языкам; поиск по словам-стимулам, словам-реакциям и диапазонам частот в прямом и обратном словарях; вывод списков слов. Система имеет интуитивно понятный пользовательский интерфейс, размещается на компакт-диске и является основой электронного издания Славянского ассоциативного словаря.

Литература


Черкасова Г.А. Русский ассоциативный тезаурус: компьютерная технология создания и издания // Этнокультурная специфика языкового сознания / Под ред. Н.В. Уфимцевой. М., 1996. С. 181–190.

Черкасова Г.А. Компьютерный ассоциативный тезаурус: база научных исследований // Языковое сознание: формирование и функционирование / Под ред. Н.В. Уфимцевой. М., 1998. С. 129–134.

Черкасова Г.А. Инструментальные средства для сопоставительного анализа ассоциа­тивных словарей разных языков // Языковое сознание: содержание и функционирование. XIII Международный симпозиум по психолингвистике и теории коммуникации. Тез. докл. Москва, 1–3 июня 2000 г. / Ред. Е.Ф. Тарасов. М., 2000. С. 267.

Черкасова Г.А. Формальная модель ассоциативного исследования // Scripta linguisticae. Проблемы прикладной лингвистики. Выпуск 2. Сборник статей / Отв. ред. Н.В. Васильева. М.: Азбуковник, 2004. С. 139–156.

Филиппович А.Ю. Лингвистический редактор Andrew Tools 2000 // Scripta linguisticae. Проблемы прикладной лингвистики — 2001. Сборник статей / Отв. ред. А.И. Новиков. М.: Азбуковник, 2001. С. 305–310.

Филиппович Анна. Среда обработки данных полиязычного ассоциативного эксперимента // Интеллектуальные технологии и системы. Сборник учебно-методических работ и статей аспирантов и студентов. Вып. 5. М.: Изд-во ООО “Эликс+”, 2003. С. 324–332.

Г.А. Черкасова